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摘 要 : 在 对 中 文 文 本 进行 摘要 提取 时 ， 传 统 的 TextRank 算法 只 考虑 节点 间 的 相似 性 ， 忽 略 了 文本 的 其 他 重要 信息 。 
首先 , 针对 中 文 单 文档 , 在 现 有 研究 的 基础 上 ,使 用 TextRank 算法 ,一 方面 考虑 句子 间 的 相似 性 , 另 一 方面 ,使 TextRank 
算法 与 文本 的 整体 结构 信息 、 名 子 的 上 下 文 信息 等 相 结 合 ， 如 文档 句子 或 者 段落 的 物理 位 置 、 特 征 句 子 、 核 心 句子 等 


有 可 能 提升 权重 的 句子 ， 来 生成 文本 的 摘要 候选 名 群 ; 然后 对 得 到 的 摘要 候选 名 群 做 宛 余 处 理 ， 以 除去 候选 名 群 中 相 
似 度 较 高 的 句子 ， 得 到 最 终 的 文本 摘要 。 最 后 通过 实验 验证 ， 该 算法 能 够 提高 生成 摘要 的 准确 性 ， 表 明了 该 算法 的 有 
效 性 。 
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中 图 分 类 号 : TP301.6 doi: 10.3969/j.issn.1001-3695.2017.11.0786 
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Abstract: When abstracting Chinese texts, the traditional TextRank algorithm only considers the similarity between nodes and 


的 = neglects other important information of the text. Firstly, aiming at Chinese single document, on the basis of existing research, 
this paper uses TextRank algorithm, on the one hand, it considers the similarities between sentences, on the other hand, TextRank 
is combined with the overall structural information of texts and the contextual information of sentences, such as the physical 
position of the document sentences or paragraph, feature sentences, core sentences and other sentences that may increase the 
weight of the sentence, all are used to generate the digest candidate sentence group of the text. And then, removing high- 
similarity sentences by redundancy processing technology on the digest candidate sentence group. Finally, the experimental 
verification shows that the algorithm can improve the accuracy of the generated digest, indicating the effectiveness of the 
algorithm. 


Key words: abstract extraction; TextRank; structure information; the digest candidate sentence group; redundancy processing 


人 类 一 样 在 阅读 一 篇 文章 后 ， 理 解 其 意义 并 产生 自己 的 认 知 ， 

已 只 能 通过 统计 、 计 算 、 机 器 学 习 等 方法 对 文档 进行 机 械 性 的 
在 自然 语言 处 理 Cnatural language processing) 领域 中 ， 文 处 理 ， 然 后 从 文档 中 抽取 一 些 能 够 表达 文章 主旨 的 句子 ， 组 成 
本 自动 摘要 的 提取 是 一 项 比较 复杂 但 意义 重大 的 工作 。 所 谓 生 文章 摘要 ; b) 文 本 摘要 都 是 通过 阅读 文章 产生 的 理解 ， 因 此 必 
成 文本 摘要 就 是 指 利用 计算 机 自动 地 从 原始 文献 中 提取 重要 句 。 然 要 了 解 文章 的 文本 大 意 ， 但 是 计算 机 并 不 能 够 理解 文章 的 含 
子 组 成 文章 摘要 的 过 程 。 摘 要 是 全 面 准确 地 反映 某 一 文献 中 心 ” 义 ， 也 得 不 到 完全 符合 人 类 心意 的 文本 摘要 。 目 前 的 文本 自动 
内 容 的 简单 连贯 的 短文 。 文 本 自动 摘要 生成 的 过 程 中 存在 一 定 。 摘要 研究 大 多 倾向 于 从 原始 文本 中 提取 能 表达 文本 核心 意思 的 
的 困难 性 , 主要 表现 为 : a) 计 算 机 并 不 是 人 类 的 大 脑 , 它 不 能 像 J 子 ， 使 其 尽 可 能 的 包含 文章 所 要 表达 的 信息 。 但 7 
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文章 中 的 长 句子 还 是 短 句子 ， 将 其 


可 能 完整 的 表达 文章 的 主要 含 


罗列 组 成 文章 的 摘要 ， 都 不 
也 不 会 达到 人 们 对 于 摘要 的 


义 ， 


要 求 。 与 此 司 


期 的 探索 。 


TextRank 算法 中 是 Mihalcea 和 Tarau 于 2004 年 在 研究 自 


动 摘要 提取 过 程 所 提 H 


动 


算法 的 思路 ,将 句子 间 的 相似 关系 看 成 是 一 种 


此 来 构建 TextRank 


子 的 权重 值 冲 。TextRank 算法 


来 的 ,了 


时 ， 还 要 考虑 摘要 提取 所 针对 的 文本 是 单 文档 还 
是 多 文档 ， 所 以 想 要 使 用 自 


摘要 算法 生成 好 的 摘要 还 需要 长 


要 是 借鉴 Google 公司 PageRank 


E 荐 或 投票 关系 ， 


网 络 图 ， 


Ch 
李 九 妈 


， 等 : 基于 TextRank 的 


inaXiy 合 作 期 和 


摘要 。 文献 [1 和 考虑 词 的 频率 、 词 性 、 词 的 位 置 、 词 长 等 因素 ， 


构建 词语 权重 计算 公式 来 表达 主题 的 词 


和 短语 具有 较 高 的 权 习 


对 句子 权重 的 计算 融入 句子 的 内 容 、 位 


以 及 线索 词 的 作 


Si 


户 偏好 等 因素 ; 摘要 的 生成 考虑 到 候选 文摘 句 的 相似 性 


了 元 余 信息 的 加 入 。 对 摘 
度 的 改进 。 
子 进 行 综合 打分 ， 便 于 更 好 地 识别 文 


并 通过 和 迭代 计算 至 收敛 来 得 到 名 


有 实现 简单 、 无 监督 、 语 言 弱 


相关 ， 同 时 适 | 
频 影响 大 ， 在 提取 


] 于 单 文本 及 多 文本 处 理 等 优点 ， 但 
E 确 性 


EF » 


势 , 因 


] 于 信息 的 检索 ， 


应 | 


信息 构建 无 权 的 TextR 
现 关 系 和 语法 关系 为 链 ， 


于 其 受 词 
与 其 他 算法 相 比 ， 并 没有 太 大 优 


此 需要 对 TextRank 算法 进行 改进 。 文 献 [3~5] 将 TextRank 
其 中 文献 


[3,4] 根 据 一 定 窗口 内 词 项 的 共 现 


ank 网 络 网 : 


以 词语 为 顶点 , 词语 间 的 共 


过 整个 图 


的 拓扑 关系 计算 词语 的 权 


重 ; 而 文献 [3] 则 进 一 志 


5 利用 i 


构建 加 权 网 络 ， 使 用 力 
的 


日 权 网 


项 间 的 共 现 频率 作为 边 的 权重 来 
尺 无 权 共 词 网 络 文档 表示 方法 


Ps 


同时 ， 还 提出 J 


基于 名 了 


窗口 的 共 词 网 络 构建 方式 ， 文 章 


突破 了 传统 的 词 袋 模型 ， 更 多 的 
TextRank 应 上 


息 。 文 献 [6~8] 将 


体现 了 词语 在 文档 中 的 结构 信 


于 关键 词 的 提取 ， 其 中 文献 [6] 


融合 句子 和 单词 之 间 的 三 种 关系 : 词 与 词 之 间 、 句 子 与 句子 之 


间 、 词 与 句子 之 间 等 文章 


结构 


词 ， 


分 


子 长 度 等 信 


间 的 关系 ， 但 在 计算 中 只 考虑 
方面 还 需 提 高 ;文献 [7] 基 了 


F TextRank 算法 ， 利 用 
法 计算 文档 集中 的 词语 权重 


信息 ， 可 以 强化 句子 和 关键 词 之 
了 互信 息 和 向 量 ， 框 架 的 稳定 性 
ATF*PDF 方 
取 权 重 较 大 的 实 词 为 候选 关键 


根据 候选 关键 词 之 间 的 
型 ， 递 归 计 算 至 收 傅 ， 生 成 关键 词 序列 文章 主要 考虑 词 
性 和 词语 间 的 语义 关系 等 信息 ; 而 文献 [8] 则 通过 引入 社会 
签 Tag 的 方式 来 调整 TextRank 词 项 
词 项 的 重要 度 。 文 献 [1]) 
息 引 入 到 


只 


合 了 词 -名 关系 和 基 了 


多 


仁 标 题 、 段 落 、 特 殊 句 子 、 
TextRank 网 络 图 
的 无 监督 排序 模型 , 提出 了 宛 余 消除 技 


下 
~ 


J 未 登录 词 。 


由 此 可 以 看 出 ， 大 部 分 的 天 


上 下 文 信息 、 句 子 信息 等 片面 的 医 
因素 对 生成 摘要 的 影响 。 本 文 对 近年 来 


自动 摘要 改进 算法 


动 摘要 优化 算法 


ey 


和 
,避免 
要 的 评估 进行 了 从 句子 粒度 到 词语 粒 
文献 [15] 充 分 考虑 文章 结构 和 上 下 文 信息 的 融合 , 对 
本 中 的 重要 句子 。 文 献 
[16] 通 过 构造 词 的 语义 距离 计算 主题 句 之 间 的 语义 距离 ， 消 除 
袁 要 的 元 余 度 实现 摘要 的 约 简 ， 但 没有 考虑 《同义词 词 林 》 中 


究 只 考虑 了 篇 章 结 构 或 文章 中 
素 ， 并 没有 综合 考虑 各 方面 
做 了 


总 结 ， 在 现 有 研究 的 基础 上 ， 
的 上 下 文 


选 句 子 做 元 余 处 理 ， 使 得 到 的 摘要 既 简 


1 TextRank 


练 义 包含 丰富 的 信息 。 


传统 的 TextRank 算法 是 一 种 基于 图 的 无 监督 方法 , 月 
文本 生成 关键 字 和 摘要 。PageRank 算法 是 一 种 链接 分 析 算 法 ， 


结合 文档 的 篇 章 结构 信息 及 句子 
言 息 ， 对 TextRank 算法 进行 改进 ， 并 对 得 到 的 摘要 候 


于 为 


被 Google 搜索 引擎 用 于 进行 网 页 排序 ， 
的 算法 。PageRank 算法 的 主要 思想 是 计 
和 质量 ， 从 而 估计 这 个 网 
更 重要 的 网 页 会 从 其 他 网 
法 的 


页 的 重要 程度 。 
页 收 到 更 多 的 链接 。 受 PageRank 算 
启发 ，TextRank 算法 的 主要 思想 是 将 文档 划分 成 若干 词 或 


已 是 衡量 网 页 重要 程度 


算 一 个 网 页 链接 的 数量 


该 思想 是 基于 假设 : 


上 


句子 等 的 文本 单元 ， 这 些 文本 单元 构成 节点 ， 节 点 间 的 相似 度 


构成 边 ， 进 而 形成 文本 图 ， 


语义 相似 关系 建立 TextRank 模 
、 词 


图 中 边 的 权重 , 并 用 了 
句子 位 置 
的 构造 中 。 文 献 [9] 结 


术 作为 论文 方法 的 补充 ， 


从 而 


进一步 提高 自动 汇总 的 质量 。 文 


献 [10] 讨 论 了 计算 句子 相 


似 度 的 方法 , 并 将 句子 


立 置 、 线 索 词 和 


TextRank 方法 相 结 合 的 句子 权重 计算 方案 , 但 只 考虑 了 单个 的 
相似 度 计算 方 法 。 文献 [11] 利 用 互信 息 对 文本 中 词语 、 句子 及 段 


落 之 间 的 关联 程度 进行 计算 ， 


农 据 关 联 程度 将 整个 文本 划分 成 


包含 不 同 主题 的 较 小 单元 ， 


针对 


每 一 单元 运用 优化 的 句子 权 


重 计算 方法 


进行 主题 句 提 
种 基于 局 部 主题 关键 名 


芭 , 进而 生成 文本 摘要 。 文献 [12]1 


取 


分 割 的 方法 对 文档 进行 主题 分 


的 中 文 自动 文摘 方法 ， 通 过 
割 ， 从 各 个 元 


C 中 扩 


局 部 主题 身 


一 定数 量 的 句子 作为 文章 的 文摘 句 。 文 献 [13] 对 文章 中 本 


响 文摘 句 提取 质量 的 若 


特征 


进行 分 析 , 设 计 了 一 种 基于 特征 


信息 提取 的 句子 重要 度 计 算 方 法 ,并 依 些 来 抽取 文摘 句 以 4 


nT 
本 


点 进行 排序 ， 得 到 关键 词 或 摘要 人 句 。 
TextRank 网 络 图 的 构造 外 如 下 : 
n 个 元 素 V(1< i< n) 所 构成 的 集合 。 


否 具有 相似 关系 为 边 ， 构 成 有 向 的 TextRank 网 络 医 
中 EE FrxF 为 节点 间 各 个 边 的 非 空 
记 为 E={(V,Vi)IV EVAV; EV AwW 


G=(V,E,W), 只 


然后 采用 矩阵 迭代 收敛 的 方式 对 节 


腿 设 Y ={V,V,，,..., WV} 是 


以 Vi 为 节点 ， 节 点 间 是 


E WA wy #0}; 


限 集 口 。 


WW={ wj |1< 夫 nAlz<j<n} 是 网 络 图 边 的 权重 集合 ，wy 为 节点 


Vi 与 0 间 边 的 权重 值 ( 即 相似 度 大 小 ) 


， 可 通过 各 种 相似 度 计 


算 函 数 〈 如 欧 氏 距离 、Jaccard 或 余弦 函数 


等 ) 


计算 所 得 。 


根据 有 向 网 络 图 G-( 太 已 风 可 得 到 节点 间 的 一 个 
nxn 的 相似 度 和 矩阵 SM jpxn 了 
W11 win | 
SMnxn =| ... es (1 
Wnl Wnn 


矩阵 SMnxn 是 对 称 和 矩阵 ， 基 


对 万 的 贡献 度 是 一 样 的 ， 且 SMnxn 对 


根据 G 和 5SMnxn ， 和 迭代 计算 各 个 节点 的 权 恒 


式 为 


线 上 元 素 的 值 均 为 1 


) 


为 节点 Vi 对 Vj 的 贡献 度 和 Vj 


o 


EE， 权 重 计算 公 
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Wj 
WS (WV)=1-d+dx 一 
V, eln(V;) > wjk 
Vi eOut(V,) 


其 中 : WS(Vi ) 是 节点 Vi 的 权重 值 ( 称 为 PR 值 ); 4 是 阻尼 系数 
(0<qd<1)， 表 示 图 中 某 一 节点 跳 转 到 其 他 任意 节点 的 概率 ，4 一 
般 设 置 为 0.85;In(Vi) 是 指向 节点 Vi 的 所 有 节点 的 集合 ; Out(Vi) 
是 节点 Vi 所 指向 的 所 有 节点 的 集合 ;|Out(Vi)| 是 集合 Out(Vi) 
中 元 素 的 个 数 。 式 Q2) 的 左 侧 表示 节点 万 的 权重 (WS 即 
weight_sum), 右 侧 的 求 和 表示 每 个 相 邻 的 节点 对 本 节点 的 贡献 
程度 。 求 和 的 分 子 wy 表示 两 个 节点 间 的 相似 程度 大 小 , 分 母 为 
一 个 加 权 和 ，WS(Vj ) 表 示 上 一 次 迭代 后 节点 Vj 的 权重 值 。 


We 


uy 


在 使 用 TextRank 算法 时 要 注意 两 点 : 

a) 计 算 节点 的 权重 要 用 到 节点 自身 的 权重 ， 来 进行 迭代 计 
算 。 设 每 个 节点 的 权重 初始 值 均 为 MM, 即 80 = (4.…1)， 那 
么 一 般 经 过 若干 次 迭代 计算 后 可 收敛 : 


Bo = SMnxn Bi-1 G3) 

b) 收 敛 判定 。 当 两 次 迭代 的 结果 8; 和 8;-1 差别 非常 小 并 接 

近 于 零 时 停止 迭代 计算 ， 此 时 算法 结束 ， 最 终 可 得 到 包含 各 个 

节点 权重 值 的 向 量 。 收 敛 阔 值 设 为 0.0001。 根 据 权 重 值 大 小 排 

序 可 得 到 相应 排名 。 

在 自动 生成 文本 摘要 时 ， 抽 取 文 摘 句 需 根据 每 个 句子 权重 

值 的 大 小 进行 排序 ， 抽 取 重 要 度 最 高 的 7 个 句子 作为 候选 文摘 

句 群 。 根 据 字 数 或 句子 数 要 求 ， 从 候选 文摘 句 群 中 抽取 句子 组 
成 文摘 。 


2 ”文本 网 络 图 构造 


对 文本 的 预 处 理 和 特征 提取 过 程 如 图 1 所 示 。 以 句子 为 单 
位 , 对 文本 进行 预 处 理 , 包括 分 词 、 分 句 、 分 段 以 及 词性 标注 ， 
进而 得 到 句子 的 特征 项 。 其 次 ， 对 特征 项 进行 去 除 停 用 词 、 去 
除 敏 感 词 、 词 性 过 滤 等 处 理 ， 去 掉 无 用 词 ， 只 保留 具有 特定 词 
性 的 词 项 ， 为 降低 特征 空间 的 维 数 ， 还 要 删除 低频 词 ， 采取 同 
近义词 归并 、 聚 类 和 分 类 等 策略 的 目的 是 降低 后 续 计算 的 复杂 
性 ， 减 少 摘要 元 余 度 并 提高 表达 效果 。 必 须 注 意 的 是 ， 在 文本 
中 虽然 有 些 词语 字面 表示 不 同 , 但 含义 相同 ,常见 的 如 “电脑 ”、 
“Computer”“ 计 算 机 ”“PC 机 ”进行 词 频 统计 时 ， 需 将 这 
类 词 作为 同一 个 词 处 理 。 
用 集合 进行 如 下 表示 : 设 文本 DD 包含 n 个 句子 ，5j(1< 匡 
n) 是 文本 D 中 依次 出 现 的 句子 ， 文 本 D 表示 为 D={ 51, 52,.…， 
5n }。 参 照 文献 [2]， 经 过 图 1 的 处 理 可 以 得 到 : 

a) 文 本 特征 词 向 量 ， 记 为 

Drey = [Key1 : Fel ov 
h 是 该 文本 中 所 有 特征 词 的 数量 , h=| Dkey |; fej 是 特征 词 ker7 
在 文本 中 的 词 频 。 

b) 5; 的 一 维 向 量 


Sip = [keyi1 :rierT 


pal 
出 


Pa 


keyj : frej».., keyp : frep] (1< j h), 


Keyy :6ej keyin :wheip] (1< kh), 


wfrey 是 特征 词 keyy 的 词 频 。 如果 特征 词 kery 在 句子 5; 中 出 现 ， 


hinaXiv 合 作 其 让 惕 
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那么 相应 的 wiey 是 特征 词 kery 在 该 
whey 为 0。 


玄 句 子 中 的 词 频 ， 否 则 ， 


W11 wi1h 
Mnxh = a 
Wp1 Wnp 
矩阵 Mnxp 由 所 有 5m 构成 ， 其 中 第 i 行 表示 Sm ， 对 应 的 


一 列 wy 为 5; 中 对 应 的 分 量 《eyy :whey ， 由 于 句子 长 度 不 一 
致 ， 所 以 Mnxp 是 一 个 高 维 稀疏 矩阵 。 


中 文 文本 


去 除 停 用 词 
| 


去 除 敏感 词 词性 过 滤 


去 除 低频 词 


图 1 文本 预 处 理 和 特征 选择 流程 


本 文采 用 TF-IDF 方法 用 于 特征 词 的 评估 。 考 虑 到 文档 长 
度 的 因素 带 来 的 影响 ， 减 小 词 频 差 异 所 带 来 的 影响 ， 根 据 文献 


[2]， 将 词 频 用 词 频 对 数 来 代替 。 特 征 词 评估 函数 定义 为 


lg(fej +1DJx 人 -之 
Nhey; 


万 
> (lg(frejy +1)xlg— 2 
/=1 Nkey, 


其 中 : WN 为 分 词 工 具 中 词典 所 包含 的 特征 词 的 总 数 ，Nhey, 为 
keyj 在 NN 中 出 现 的 次 数 。 

将 计算 结果 进行 排序 ， 取 排名 靠 前 的 一 定数 量 的 特征 词 ， 
得 到 关键 词 列 表 。 


WS(keyj) = 


(4) 


经 过 图 1 的 处 理 ， 得 到 每 个 句子 的 特征 词 向 量 。 计 算 各 个 
句子 之 间 的 相似 度 ， 并 作为 句子 间 边 的 权重 。 如 果 两 个 句子 之 
间 没 有 相似 度 ， 即 相似 度 为 0， 意 味 着 它们 之 间 不 存在 相应 的 


边 ; 如 果 两 个 句子 之 间 具 有 
那么 这 两 个 句子 之 间 存 在 一 
相似 性 的 大 小 。 

句子 间 的 相似 度 可 以 通过 欧 氏 距离 、 
BM25 等 相似 度 计算 函数 计算 得 到 。 本 文采 
参照 文献 [2]， 计 算 公 式 为 


定 的 相似 度 , 即 相似 度 不 等 于 0， 
条 边 ， 相 似 度 的 数值 代表 ] 


句子 间 


余弦 函数 或 
用 余弦 相似 度 方法 ， 


Jaccard、 
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ee Sih :Sjh 
7 TsimIl ls 
WS(whrem) x WS(wfrem) 5 
Daal em 9 


| 2 psh WS fap 7 | 2 p<h We y 
其 中 :为 向 量 点 积 。 
矩阵 SMnxn Mnxh 与 式 (5) 得 到 : 


” 5 
SM jxn = Mnxh" Mxp = P| (6) 


5Mnxn 是 句子 间 的 相似 度 和 矩阵 ， 权 值 wj 表示 句子 5; 与 5j 间 的 相似 
度 。 SMnxn 为 对 称 阵 ， 其 对 角 线 上 的 元 素 值 均 为 1。 
构建 一 个 有 向 的 加 权 TextRank 网 络 图 的 大 致 过 程 如 下 : 以 
文本 中 各 句子 为 节点 ， 句 子 间 是 否 上 共有 相似 关系 为 边 ， 句 子 间 
的 相似 度 为 边 的 权 值 ， 各 节点 的 权重 计算 公式 为 


yy 
ws (SD=1-d+dx > < 二 nxcej) 
Sj eln(s,) 所 扩 
‘kr EOut(S,;) / 


根据 第 2 部 分 ， 设 每 个 节点 的 权重 初始 值 均 为 1， 即 
Bo0 = (4.…1) ， 经 过 若干 次 的 迭代 计算 后 Bj; 可 收敛 
Bo = SMnxn Bi-1 (8) 
收敛 后 的 8; 包含 了 各 个 句子 节点 的 权重 值 , 对 权重 值 的 大 
小 进行 排序 得 到 相应 句子 排名 。 根 据 一 些 其 他 要 求 ， 如 字数 或 
句子 数 ， 并 结合 他 们 在 文本 中 的 先后 顺序 ， 从 候选 文摘 句 中 抽 
取 排 名 靠 前 且 符 合 一 定数 量 的 N11 万 N<|D) 个 句子 构成 文本 的 
商 要 。N 的 值 可 通过 统计 信息 来 确定 。 例 如 : 统计 分 析 摘 要 名 
子 数 量 与 文本 句子 数量 间 的 比例 以 确定 合适 的 Y 值 。 


3 ”基于 TextRank 的 自动 摘要 优化 算法 


3.1 文本 结构 和 句子 信息 
此 部 分 主要 叙述 本 文 的 改进 思路 ， 主 要 考虑 文本 的 结构 以 
及 句子 的 信息 ， 包 括 文本 结构 信息 和 句子 上 下 文 信息 。 此 外 ， 
考虑 到 摘要 的 新 颖 性 和 相关 度 ， 对 获得 的 候选 摘要 句 群 做 元 余 
化 处 理 。 最 后 提 及 摘要 的 输出 问题 ， 目 的 是 保证 最 终 摘 要 的 
连 员 性 和 可 读 性 。 
3.1.1 句子 位 置 
对 于 像 新 闻 类 等 的 文章 ， 往 往 会 在 第 一 段 交 代 很 多 文章 主 
则 信息 ， 在 此 类 文章 中 ， 距 离 文 章 开 始 位 置 越 近 的 段落 或 者 句 


(7) 


的 权重 。 


ChinaXiy 合 作 期 于 


李娜 娜 ， 等 : 基于 TextRank 的 自动 摘要 优化 算法 


设 文章 首 段 中 有 4 个 句子 ， 末 段 由 v 个 句子 组 成 , 对 Bi 中 
句子 的 权重 调整 可 以 通过 转移 矩阵 7worxi 来 实现 ， 


TMnx1 = [SW1,..., 


了 。7TMnx1l 中 前 


个 sw(13<w) 的 值 采用 依次 递减 的 方式 , 而 后 v 个 句子 采用 依次 


递增 的 方式 。 


(1+@e)-(j-1)x 人 <j<u 
u 


ls<j<n+l-—v 


1+(j -ntv)x ,nt+i-v<zj<n 
V 


其 中 : el 和 ez? 均 为 调整 浆 值 ， 本 文中 el =0.35，e2 =0.1。 


3.1.2 文章 标题 


通过 和 托 阵 相 乘 下 +1 =7Mnx1*B; ， 实 现 对 最 终 权 重 的 调整 。 


将 文章 中 标题 句子 记 为 3 ， 其 特征 词 向 量 表示 为 


50 = [ko1,.. kop 7 ? 1 是 扩展 后 包含 标题 及 句子 的 特征 词 的 


数量 。 主 要 考虑 的 因素 为 : 


a) 每 个 句子 与 文章 标题 的 相似 度 。 相 似 度 越 高 ， 则 该 句子 


的 权重 越 高 ， 反 之 ， 句 子 权重 越 低 。 
第 2 部 分 可 知 在 TextRank 算法 中 ， 经 过 多 次 迭代 计算 


后 ， 每 个 句子 的 数值 趋 于 稳定 ， 说 明 句 子 的 稳定 值 与 初始 值 无 


关 ， 只 与 其 他 句子 对 本 句子 所 做 的 贡献 度 有 关 。 利 用 标题 50 与 


各 个 句子 2 间 的 相似 度 ， 调 整 收敛 后 B; 中 的 句子 权重 。 


调整 规则 : 如 果 文 章 的 标题 与 句子 的 特征 词 完全 相同 ， 即 
相似 度 为 1， 则 将 该 句子 的 最 终 权 重 放大 2 倍 《〈 将 权重 放 


大 的 倍数 太 高 ， 易 造成 数据 的 极 性 化 ， 造 成 最 终 的 错误 ); 


其 他 情况 下 保持 原 权重 不 变 。 


持 词 频 权 重 不 变 。 
3.1.3 特殊 句子 


b) 文 章 中 各 个 句子 的 特征 词 是 否 在 标题 中 也 同时 出 现 。 如 
果 特 征 词 在 标题 中 出 现 ， 则 适当 提升 其 词 频 的 权重 ， 否 则 ， 保 


根据 中 文 文章 的 特点 ， 在 一 个 文章 中 ， 如 果 一 个 句子 自 成 


一 段 ， 那 么 这 个 段落 往往 起 着 “承上启下 ”或 者 “过 渡 句 ”的 


作用 。 文 章 中 还 可 能 存在 一 些小 标题 ， 自 成 一 段 。 这 些 具有 特 


殊 性 的 关键 名 了 


子 应 适当 提高 其 权重 。 根 据 美国 科学 家 的 研究 结果 : 在 人 工 摘 
要 中 ， 选 取 段 首 句 作为 摘要 的 比例 为 85%， 选 取 段 尾 句 作为 摘 
要 的 比例 为 7%。 
基于 以 上 信息 ， 可 对 文档 进行 分 类 处 理 ， 即 普通 文档 和 新 
闻 类 文章 或 者 在 文章 结构 上 与 新 闻 类 文章 相似 的 文档 。 对 于 此 
类 文档 ， 距 离 文 章 开 始 位 置 越 近 的 段落 或 者 句子 应 适当 提升 其 


© 


目 


般 具有 高 概括 性 、 精 炼 性 的 特点 ， 符 合 摘要 


本 身 的 要 求 ， 所 以 有 更 大 的 可 能 性 成 为 摘要 的 一 部 分 。 对 于 文 
章 中 带 有 启发 词汇 的 句子 ， 比 如 带 有 “总 之 ”“ 综 上 所 述 ”“ 总 
而 言 之 ”等 能 够 表达 总 结 词汇 的 句子 ， 是 对 文章 或 者 段落 的 总 
结 ， 需 要 对 此 类 句子 的 权重 进行 适当 提升 。 


对 于 上 述 讨论 的 句子 可 以 给 予 更 大 的 权重 ， 处 理 方法 类 似 


于 前 面 (1) 部 分 对 4 


村 殊 段 落 中 句子 位 置信 息 中 对 首 段 和 来 段 句 


子 的 权重 提升 。 但 是 ， 在 本 部 分 中 需要 对 此 类 句子 进行 筛选 ， 


因为 文章 中 往往 


b 存 在 一 些 没 有 意义 的 短 句子 (一 般 字数 小 了 


n 


权重 ; 男 一 类 文档 可 以 根据 段落 位 置 和 段落 中 人 句子 的 位 置 进行 
加 权 。 对 首 段 中 越 靠 前 的 句子 给 予 越 大 的 权重 提升 ， 末 段 中 越 
靠 后 的 句子 给 予 越 小 的 权重 提升 。 因为 收敛 后 的 权重 和 矩阵 8; 仍 
然 按照 句子 的 先后 顺序 排序 ， 因 此 可 根据 句子 的 位 置 调整 相应 


或 等 于 6) 自 成 一 段 ， 这 些 句 子 就 没有 提升 权重 的 必要 。 此 外 ， 


类 似 于 问 句 等 这 样 不 适合 作为 摘要 的 句子 ， 它 们 的 句子 权重 也 


没有 提升 的 必要 。 
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3.1.4 句子 权重 


李娜 娜 


， 等 : 基于 TextRank 的 


ChinaXiy 合 作 期 天 


动 摘要 优化 算法 


要 句子 作 元 余 处 理 之 后 ， 得 到 的 摘要 句子 数 为 4， 那 么 本 文句 


众所周知 , 在 TextRank 算法 中 , 句子 的 重要 程度 是 


本 身 所 得 到 的 其 他 句子 的 “ 投 


句子 


票 ”数量 和 质量 决定 的 , 得 票 越 多 ， 


句子 越 重 要 。 当 句子 权重 得 到 提 于 
权重 也 应 得 到 相应 的 提升 ， 这 就 需要 


后 ， 与 该 句子 相关 联 的 句子 


递 ， 使 最 终 的 计算 结果 更 加 准 


等 更 新 的 句子 权重 进行 传 
E 确 。 将 首 段 句 子 、 末 段 句 子 、 关 


键 句子 、 独 立 存在 的 句子 等 进行 标记 ， 并 将 这 些 句 子 传送 出 去 


的 权重 放大 ， 使 与 之 关联 的 句子 都 获得 更 加 精确 上 


大 的 权重 值 ， 即 放大 相似 度 久 


E 阵 SMnxn 中 第 i 行 


的 权重 值 。 
在 此 部 分 ， 设 置 一 个 阔 值 & ( & >1) 作为 界限 来 确定 那些 
与 之 关联 的 句子 权重 要 放大 的 倍数 ， 使 关联 性 强 的 句子 获得 更 


的 值 。 还 


还 要 确 


定 一 个 余弦 相似 度 值 用 来 确定 放大 哪些 关联 句子 的 权重 。 


3.1.5 过 滤 句 子 长 度 


一 个 句子 能 否 作 为 摘要 候选 句 ， 该 句子 本 身 


的 长 度 也 是 一 


个 重要 的 条 件 ， 过 长 或 过 短 的 句子 都 不 应 该 作为 要 生成 的 摘要 
的 候选 句 。 例 如 ， 经 过 预 处 理 后 不 包含 基本 特征 词 的 句子 可 以 


掉 。 句 子 长 度 系数 定义 为 


Cr = 一 一 


其 中 : 工 为 句子 的 长 度 ， 
3.1.6 宛 余 处 理 


Lm 


为 最 长 句子 的 长 度 。 


摘要 应 该 具有 的 硬性 评价 指标 包括 新 颖 性 和 相关 性 。 
性 是 指 候选 句子 包含 的 元 余 信 息 少 ， 


尽 可 能 


立 的 表示 出 一 种 独立 的 意思 。 
够 代表 该 文档 的 意思 。 


直接 忽略 。 本 文中 ， 将 长 度 系数 Cj >0.8 以 及 CL <0.2 的 句子 去 


9) 


新 颖 


的 每 句 话 都 可 以 独 


相关 性 是 指摘 要 所 用 的 句子 最 能 


因此 对 最 终 获 得 的 摘要 候选 句子 ， 为 了 使 生成 的 摘 


要 尽 可 


女 


能 的 包含 原始 文档 的 信息 含 


减少 


有 ， 就 


重复 出 现 ， 需 要 对 其 进行 再 


本 文 在 选择 摘要 内 容 时 ， 
在 此 部 分 ,一 些 研究 会 在 计算 
对 所 的 句子 ji 


行 


axscordi)+ (1a)xsimilartiy(i,i 一 1) 。 序 号 ;表示 排 


要 有 相同 信息 的 句子 
次 的 元 余 处 理 ， 所 以 将 相似 度 较 
高 的 句子 进行 减 分 或 者 是 去 除 操作 。 


利用 余弦 相似 度 来 判别 元 余 信 息 。 


重新 打分 ， 公式 


序 


序 ， 排 序 第 一 的 句子 不 需要 和 


pt 


句子 间 相 似 度 时 , 引入 惩罚 因子 ， 


为 : 
后 的 顺 


EE 新 计算 ， 从 第 二 句 开始 后 面 的 句 


子 必须 和 前 一 句 的 相似 度 进行 惩罚 ， 也 就 是 MMR(maximum 


margin relevence)。 当 句子 间 自 


候选 文摘 句子 中 出 现 的 顺序 进 


句子 ， 并 从 候选 摘要 句 群 中 


值得 注意 的 一 个 问题 是 : 


| 除 。 
对 候选 摘要 句子 作 元 余 处 到 


的 相似 性 较 大 时 ， 按 这 几 个 句子 在 
行 选择 ， 将 剩余 的 句子 作为 元 余 


之 后 ， 


可 能 会 导致 最 终生 成 的 搞 要 句子 数 不 符 合 要 求 ， 当 出 现 此 类 情 
况 时 ， 需 要 从 根据 句子 权重 值 大 小 排序 得 到 的 句子 重要 性 排名 


中 ， 依 次 向 下 取出 一 定数 
度 较 小 的 句子 加 入 最 终 摘 要 ， 
数目 要 求 。 例 如 : 最 终 摘 要 句子 的 数目 是 5， 在 得 到 的 句子 重 


要 


生 排名 中 ， 选 择 排名 前 8 的 句子 作为 候选 摘要 句 ， 对 候选 摘 


的 句子 ， 做 相似 度 比较 后 ， 将 相似 
直到 句子 数 符合 最 终 摘要 的 句子 


子 重要 性 排名 中 ， 继 续 向 下 选择 排名 第 9 的 句子， 与 得 到 的 4 


句 摘要 作 相 似 度 计算 ， 若 相似 度 小 
相似 度 较 大 , 则 继续 向 下 选择 第 10 
5 句 摘 要 句子 。 对 于 此 类 问题 ， 另 


， 则 将 其 加 入 最 终 摘 要 ， 若 


人 句 ……, 直到 找到 所 规定 的 


一 个 解决 办 法 是 : 按 一 定 的 


比例 从 句子 重要 性 排名 中 选择 候选 摘要 句子 ,经 过 元 余 处 理 后 ， 


按照 句子 出 现 的 先后 顺序 ， 
3.1.7 摘要 输出 


只 选 符合 目标 的 句子 数 


目 即 可 。 


输出 结果 是 经 过 元 余 处 理 后 的 


成 的 摘要 。 因 为 每 个 句子 


都 是 从 不 同 的 段落 中 选择 出 来 的 ， 所 以 要 考虑 摘要 句子 的 可 读 


性 。 若 硬 生 地 将 其 连接 成 摘要 , 不 能 


保证 句子 间 的 衔接 和 连贯 。 


所 以 ， 在 本 文中 ， 将 排序 的 句子 按 


定 程度 下 ， 保 证 一 点 连贯 性 。 
3.2 ”算法 实现 
本 文 算法 的 具体 实现 如 下 。 


原文 中 的 顺序 输出 ， 可 在 一 


a) 对 文本 进行 预 处 理 
特征 向 量 。 


b) 对 文章 进行 句子 长 度 过 滤 。 


9 计算 每 个 句子 与 文章 标题 的 相似 度 ， 调 整 词 频 权重 。 


和 特征 提取 ， 得 到 文本 和 句子 相关 的 


II 


d) 检 查 文章 中 各 句子 的 特征 词 是 否 在 标题 中 出 现 ， 调 整 词 


频 权重 。 


e 综 合 段落 位 置 、 句 子 位 
权重 的 传递 ， 再 次 调整 词 频 权 习 


| 由 
I 


o 


、 特殊 句子 处 理 以 及 相关 句子 


人 对 综合 调整 后 的 词 频 权重 矩阵 进行 迭代 计算 , 直至 收敛 。 


根据 权重 值 的 大 小 进行 排序 
摘要 候选 句 群 。 


， 得 到 相对 应 的 句子 ， 组 成 


h) 对 摘要 候选 句 群 进行 句子 长 度 过 滤 ， 去 除 疑 问 句 等 不 适 


合 做 摘要 的 句子 。 


让 对 候选 摘要 句 群 做 元 余 处 理 。 


输出 最 终 摘要 。 
本 文 算法 的 流程 图 如 图 


2 所 示 


文本 预 处 理 和 特征 选择 


里 
文本 和 句子 相关 的 特征 向 量 


v 
句子 长 度 过 滤 


标题 特征 向 量 


o 


本 
每 个 句子 与 标题 的 相似 度 。 | 一 人 | 综合 调整 词 频 权重 | | 迁 代 计算 至 收 丝 
人 v 
各 句 于 的 特征 词 是 否 本 全 和 
出现 排序 ， 得 到 摘要 候选 句 群 
里 v v 
段落 位 置 3 
愉 去 除 疑 问 句 等 不 适 i 
句子 位 置 全 做 摘要 的 句子 | | 句子 长 度 过 泪 
里 
特殊 句子 处 理 
对 候选 摘要 句 群 
J 做 宛 余 处 理 
句子 权重 传闻 J 
最 终 摘要 
De why 器 
图 2 算法 流程 图 


804.02053v1 


chinaXiv 


录用 稿 


4 ”实验 


十 


本 文 设计 了 两 个 实验 来 验证 本 文 方法 的 有 效 性 ，a) 将 传统 


李娜 娜 ， 


摘要 在 平均 准确 率 P、 平 均 召 


I 


个 算法 生成 的 摘要 


TextRank 算法 、 现 有 研究 中 基于 TextRank 作出 改进 的 算法 与 
本 文 算法 产生 的 结果 进行 比较 。 并 计算 准确 率 P、 召 回 率 R 和 
平均 正 值 ， b) 将 使 用 本 文 算法 产生 的 摘要 与 网 上 的 在 线 摘要 系 
统 生成 的 摘要 进行 对 比 。 


I 


4.1 本 文 算法 与 传统 TextRank 算法 的 比较 
从 各 大 新 闻 网 站 采集 若干 篇 文章 ， 首 先 对 其 进行 人 工 标注 


得 到 其 摘要 。 然 后 通过 本 文 算 法 和 传统 的 TextRank 算法 、 参 考 
文献 中 基于 TextRank 作出 相应 改进 的 算法 分 别 生成 每 篇 文章 
的 摘要 ， 通 过 平均 准确 率 P、 平 均 召 回 率 R 和 平均 F 值 来 分 析 
两 种 方法 自动 生成 摘要 与 人 工 标注 摘要 的 差异 度 。 

平均 准确 率 了 、 平 均 召 回 率 R 和 平均 F 值 的 定义 如 下 : 


可 |an2 | 
之 lal (10) 
国 n 
"|anb| 
之 |5,| (11) 
n 
-党 © 
其 中 : 2 表示 通过 使 用 算法 生成 的 第 i 篇 文章 的 摘要 ，b; 表示 


第 i 篇 文章 通过 人 工 标 注 生 成 的 摘要 。 
实验 结果 如 表 1 所 示 。 
该 部 分 列举 TextRank、iTextRank、TextRankExt 和 本 文 算 


生成 的 摘要 效果 是 近似 的 ， 但 
说 明 将 文本 的 整体 结构 信 
摘要 提取 的 过 程 之 中 ,并 使 其 
因素 的 共同 作 / 


时 


言 息 、 句 子 的 上 下 文 信 
其 与 TextRank 算法 相 结 合 , 在 多 个 
] 下， 使 形成 的 文章 摘要 质量 获得 


. A 
hinaX MM 法 


等 : 基于 TextRank 的 


3 要 效果 要 好 ， 更 加 接近 于 人 工 标 注 
摘要 ，iTextRank 与 TextRankExt 的 P、R、F 值 是 相近 的 ， 说明 
结果 均 优 于 TextRank。 


盲 息 等 因 


通过 对 表 1 的 数据 进行 对 比 可 以 发 现 ， 本 文 的 算法 产生 的 


率 R 和 平均 F 值 方面 均 比 其 他 


Ht 


所 产生 的 


实验 结果 
因素 考虑 到 


提升 》 


且 本 


文 算法 对 候选 摘要 句 群 做 了 进一步 的 元 余 优 化 处 理 ， 使 得 生成 
的 摘要 比 iTextRank 算法 产生 的 摘要 效果 更 好 。 


表 1 各 种 算法 的 实验 结果 对 比 
算法 2 名 3 句 4 名 5 名 
P 0.369 0.344 0.322 0.325 
TextRank R 0.328 0.346 0.352 0.381 
F 0.347 0.345 0.342 0.351 
P 0.388 0.334 0.330 0.338 
iTextRank R 0.389 0.389 0.409 0.424 
F 0.388 0.359 0.365 0.376 
P 0.375 0.326 0.332 0.340 
TextRankExt 有 R 0.393 0.410 0.432 0.455 
F 0.384 0.363 0.375 0.389 
P 0.453 0.437 0.422 0.413 
本 文 算 法 R 0.435 0.471 0.493 0.530 
F 0.444 0.453 0.455 0.464 


4.2 与 在 线 语义 分 析 系 统 所 生成 的 自动 摘要 的 对 比 


将 本 文 算法 


生成 的 摘要 、 


在 线 语义 分 析 系 统 


法 的 实验 结果 。 其 中 ，TextRank 是 传统 的 基准 算法 ; iTextRank (http://ictclas.nlpir.org/nlpir/) 生成 的 摘要 与 人 工 标注 获得 的 摘 
是 文献 [2] 所 提出 的 方法 ， | 段落 、 句 子 位 置 等 信 要 进行 比较 。 在 该 部 分 ， 以 展现 生成 的 摘要 效果 为 目的 ， 结 合 
息 引 入 到 TextRank 网 络 图 的 构造 中 , 结合 了 词 频 统计 特征 、 上 实际 需要 和 客观 因素 ， 展 现 本 文 算法 和 在 线 摘要 生成 的 摘要 句 
下 文 和 语义 信息 ; TextRankExt 是 文献 [18] 中 提出 的 方法 ， 该 方 数 为 2~3 句 。 结 果 如 表 2 所 示 。 
法 将 名 法、 语义 和 统计 方法 考虑 其 中 , 共同 作用 于 句子 的 评分 。 
表 2 摘要 结果 对 比 
序号 人 工 标注 摘要 在 线 语 义 分 析 系 统 本 文 算法 
全 球 智能 机 出 货 量 在 今年 第 三 季度 比 以 往 增长 了 2.7%， 苹 果 智 能 es 
Lr 市 场 研 究 机 构 IDC 最 新 的 研究 报告 显示 , 智能 手机 市 场 研究 机 构 IDC 最 新 的 研究 报告 显示 ， 智 能 
手机 出 货 量 依然 高 于 华为 。 华为 曾经 有 过 在 出 货 量 上 超越 人 苹果 的 短 
、 市 场 在 今年 第 二 季度 出 现 罕见 萎缩 后 , 全 球 智能 手 手机 市 场 在 今年 第 二 季度 出 现 罕 见 萎缩 后 ， 全 
暂时 刻 ， 但 利润 并 没有 超越 苹果 。 从 未 来 趋势 来 看 ， 华 为 出 货 量 超 
_ ee 机 出 货 量 在 今年 第 三 季度 达到 3.731 亿 部 , 与 2016 球 智能 手机 出 货 量 在 今年 第 三 季度 达到 3.731 
越 苹果 可 能 越 来 越 难 ， 原 因 如 下 : 利润 层面 的 差距 还 会 继续 拉 大 ; 
1 年 第 三 季度 的 3.634 亿 部 相 比 , 增长 了 2.7%。 因 此 ， 亿 部 ， 与 2016 年 第 三 季度 的 3.634 亿 部 相 比 ， 
iPhoneX 是 其 最 强大 的 对 手 ， 会 收割 不 少 客户 ; 华为 没有 抓 住 印 度 加 
从 国内 竞争 对 手 小 米 与 印度 市 场 机 遇 形 失 ,， 以 及 在 ”增长 了 2.7% 。 从 未 来 趋势 来 看 ， 华 为 在 出 货 量 
市 场 ， 小米 OV 在 印度 市 场 占据 上 风 ; 华为 近 两 年 战略 核心 是 对 中 
和 、 高 端 市 场 被 iPhoneX 强势 压制 的 种 种 不 利 环境 来 ”超越 苹果 可 能 越 来 越 难 了 ， 利 润 层面 可 能 差距 
高 端 市 场 的 定位 , 更 强调 以 利润 优先 , 导致 其 主力 布局 都 在 国内 与 
看 ， 华 为 出 货 量 要 超越 苹果 越 来 越 难 了 。 还 会 继续 拉 大 。 
欧美 市 场 ， 但 与 苹果 三 星 抢夺 市 场 的 难度 也 大 过 以 往 。 


相 比较 iPhoneX 


的 疯狂 ，iPhone8 可 谓 是 苹果 历史 


上 最 不 显 
与 iPhoneX 相 比 ，iPhone8 呈现 出 门庭 若 市 的 局 面 ， 主 要 有 三 个 原 


2 因 : iPhoneX 抢 了 iPhoneg 的 风头 、iPhone8 本 身 的 亮点 太 少 以 及 用 ” 庭 若 市 的 局 面 ， 虽然 黄牛 党 被 坑 了 ,但 依然 挡 不 住 
户 不 买 iPhone 心机 ， 根 其 是 否 便宜 关系 不 大 。 户 对 iPhoneX 的 热情 。 第 三 ， 用 户 买 不 买 iPhone 坑 了 ， 
新 机 ， 否 便 宜 关系 不 大 。 便 宜 、 降 价 是 没 和 


， 与 iPhone8 


民 的 新 机 了 ,其 锋芒 完全 被 PhoneX 给 盖 
的 门 可 罗 和 省 相 比 ，iPhoneX 则 是 门 


是 
的 ， 愿 意 买 苹果 


和 人， 肯定 是 选择 iPhoneX 。 


相 比 较 iPhone X 的 疯狂 ， 
历史 上 最 不 显眼 的 新 机 了 ， 
iPhoneX 给 盖 住 , 与 iPhone 8 的 


但 依然 挡 不 住 


iPhoneg 可 谓 是 苹果 


锋芒 完全 被 


门 可 罗 和 淮 相 比 ， 
iPhone X 则 是 门庭 若 市 的 局 面 ， 虽 然 黄牛 党 被 
户 对 iPhone X 的 热情 。 


，iPhone X 抢 了 iPhoneg 的 风头 。 第 二 ， 
iPhoneg8 本 身 的 亮点 太 少 。 
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根据 表 2， 对 比 人 工 标 注 摘 要 ， 可 以 看 出 : 无 论 是 在 线 摘 


要 系统 生成 的 摘要 还 是 本 文 算法 生成 的 摘要 ， 二 者 均 能 够 紧 扣 
文章 的 关键 词 ， 使 其 表达 围绕 主题 思想 ， 能 较 好 的 表达 文章 的 


主 由 。 在 展示 出 的 摘要 中 ， 不 难 发 现 ， 二 者 存在 部 分 重 关 的 句 


本 ， 


其 他 句子 虽然 在 一 定 程度 上 有 差距 ， 但 是 不 影响 基本 的 中 


心思 想 表 达 。 且 本 文 算法 生成 的 摘要 ， 也 具有 较 好 的 语意 连贯 


性 ， 


5 


和 句子 上 下 文 信息 ， 


自 
结 了 近年 来 自动 摘要 的 生成 算法 ， 并 在 TextRank 算法 的 基础 


便于 读者 的 理解 。 


结束 语 


动 摘要 的 生成 是 自然 语言 处 理 领 域 的 研究 重点 。 本 文 总 


结合 段落 、 句 子 位 置 、 特 殊 段 落 和 句子 等 与 文本 整体 结构 
在 得 到 摘要 候选 句 群 后 。 又 做 了 进一步 的 


元 余 处 理 ， 


删除 了 相似 度 较 大 的 摘要 候选 句 ， 使 得 
到 的 摘要 更 加 精炼 ， 将 文章 要 的 意思 表达 的 更 完整 。 在 实 


验 部 分 ， 本 文 的 方法 得 到 了 很 好 的 验证 。 下 一 步 工 作 是 将 本 文 


的 算法 应 | 
适合 的 摘要 提取 方法 。 


到 不 同类 型 的 文本 中 ， 即 针对 某 一 类 型 的 文章 找到 
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